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摘要 : [目的 /意义 ] 利 用 知识 元 模型 理论 研究 政府 网 站 知识 服务 效果 的 优化 路 径 , 辅 以 可 视 化 表征 技术 ， 
以 降低 大 数据 环境 下 政务 用 户 信 息 获 取 的 操作 负载 和 知识 加 工 的 认 知 负荷 。[ 方 法“ 过程] 依据 相关 知识 元 模 
型 研究 推理 出 符合 政府 网 站 信息 资源 属性 特征 的 六 元 组 知识 元 表示 方法 和 四 元 组 知识 元 本 体 结 构 , 采 用 Tex- 
tRank 与 HDP 算法 分 别 抽取 政府 网 站 信息 资源 关键 词 和 主题 词 ,并 由 领域 专家 根据 抽取 结果 确定 知识 元 ,构建 
包含 知识 元 本 体 库 生 成 和 可 视 化 知识 服务 的 政府 网 站 信息 资源 领域 知识 元 可 视 化 表征 模型 。[ 结果 /结论 ] 通 
过 政府 网 站 发 布 的 共享 单车 实例 检验 知识 元 可 视 化 表征 模型 的 有 效 性 和 可 行 性 ,为 实现 政府 网 站 粗 粒度 信息 
服务 转向 以 知识 元 为 单位 的 细 粒 度 知识 服务 范式 开辟 了 新 的 研究 思路 ,可视化 知识 服务 模式 增强 了 政务 信息 


昼 航 的 结构 化 和 用 户 解 读 领域 文本 语义 的 效果 。 


人 于 关键 词 : 政府 网 站 信息 资源 ”知识 元 本 体 ”可视化 表征 


分 类 号 : G250 
© DOI:10. 13266/j. issn. 0252 ~ 3116. 2018. 23.002 


我 国情 报 学 家 徐 如 镜 指 出 以 文献 为 控制 单位 的 知 
讽 痪 源 开 发 与 服务 已 无 法 满足 大 数据 环境 下 人 们 知识 
粒 开 的 需求 ,突破 以 "文献 "为 单元 ,将 知识 控制 单位 
深化 为 “知识 元 ”知识 的 最 小 单元 ) ,深度 揭示 知识 内 
在 床 联 ,将 极 大 促进 用 户 对 知识 的 有 效 著 取 、 理 解 与 利 
用 鳃 : 现 知识 创新 及 增值 。 政 府 网 站 作为 政府 公共 
服 欧 的 主要 渠道 ,为 用 户 提供 全 生命 周期 的 各 类 公开 
信息 与 服务 ,以 此 来 推进 政务 信息 共享 网 上 便民 服 
务 宣传 政府 各 项 建设 成 就 及 重大 决策 与 活动 等 。 随 
着 互联 网 与 移动 技术 的 发 展 ,电子 政务 以 其 移动 性 、 互 
通 性 、 价 格 低廉 等 优势 迅速 普及 并 应 用 在 各 级 政府 机 
构 , 据 中 国 互联 网 络 信息 中 心 (CNNIC ) 发 布 的 《第 41 
次 中 国 互联 网 络 发 展 状况 统计 报告 》” 显 示 ,2017 年 
我 国 在 线 政务 服务 用 户 规模 已 达到 4. 85 亿 , 截 止 到 
2017 年 12 月 我 国共 有 “GOV. CN ”域名 47 941 个 ,分布 
在 31 个 省 、 自 治 区 和 直辖 市 ,政府 门户 网 站 已 成 为 公 
众 获取 政务 信息 资源 的 最 主要 渠道 。 然 而 ,由 于 政府 
机 构 的 层级 性 ,各 级 部 门 缺乏 统一 的 标准 规范 ,导致 应 


用 系统 自 成 体系 ,发布 的 海量 、 分 布 式 的 信息 资源 未 能 
有 效 地 组 织 与 管理 ,降低 了 公众 获得 有 效 信息 的 效率 ， 
严重 影响 政府 公众 服务 效能 。 因 此 迫切 需要 构建 一 个 
科学 有 效 的 知识 组 织 服 务 体系 ,保障 公众 知识 的 有 效 
获取 与 利用 。 本 文 基于 知识 元 模型 理论 ,构建 政府 网 
站 信息 资源 知识 元 模型 ,并 采用 可 视 化 表征 形式 向 用 
户 呈 现 结构 化 的 内 容 , 降 低 用 户 知识 获取 过 程 中 的 认 
知 障碍 ,从 而 推动 政府 网 站 信息 资源 建设 与 高 效 流转 。 


2 研究 现状 


2.1 政府 网 站 信息 资源 组 织 相关 研究 

随 着 我 国信 息 技术 的 快速 发 展 ,电子 政务 在 提高 
政府 行政 .服务 与 管理 方面 发 挥 着 重要 的 作用 。 大 数 
据 环境 下 政府 网 站 信息 资源 呈现 信息 量 大 、 更 新 速度 
快 .内 容 涉 及 面 广 , 存 储 分 散 等 特点 ,如 何 对 其 进行 有 
效 组 织 与 管理 以 提升 政府 网 站 知识 服务 能 力 是 该 领域 
研究 的 重要 议题 。 目 前 相关 的 理论 与 实践 研究 已 取得 
了 一 定 成 果 , 研 究 主 要 聚焦 在 领域 本 体 . 云 计算 .主题 
地 图 以 及 关联 数据 等 方面 。B. Bouguettaya 等 以 分 布 
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式 本 体 模型 为 基础 ,开发 了 一 个 能 够 对 政府 数据 和 电 
子 服务 组 织 与 动态 管理 的 原型 系统 。G，Prokopi- 
adou “等 学 者 在 分 析 政 务 信息 资源 特征 基础 上 提出 了 
一 种 面向 知识 本 体 的 政务 公共 信息 资源 管理 与 传播 方 
法 。 我 国学 者 高 洁 与 李 佳 培 ”、 耿 瑞 利 “等 利用 政府 
主题 词 构建 领域 本 体 的 方法 组 织 政务 信息 资源 。 邓 峰 
等 中 构建 基于 云 计算 的 政务 信息 资源 融合 平台 框架 ， 
详细 曾 述 了 构建 资源 池 、 云 平台 以 及 服务 实施 3 个 流 
程 的 方法 ,并 针对 平台 存在 的 问题 提出 了 相应 的 解决 
方案 。 吕 元 智 " 构 建 了 由 资源 层 、 管 理 中 间 件 层 和 服 
务 层 组 成 的 电子 政务 信息 资源 共享 云 计算 实现 理论 模 
型 ,推动 了 云 计 算 技 术 在 政务 信息 资源 管理 中 的 应 用 。 
张 玉 涛 . 夏 立 新 构建 了 基于 主题 图 的 电子 政务 信息 
效 源 整合 模型 ,并 展示 了 Metamorposis 主题 图 环境 下 
资源 整合 的 流程 。 此 外 ,应 用 关联 数据 "实现 语义 层 
面 的 政务 信息 资源 组 织 方法 也 为 该 领域 研究 提供 了 一 


知识 元 相关 研究 
言 息 技术 .社会 环境 及 人 们 认 知 需求 变化 所 引发 
的 列 识 组 织 方式 变革 是 大 数据 时 代 的 必然 结果 ,由 此 
城 拉 展 了 基于 知识 元 的 知识 组 织 .知识 挖 气相 关 研 究 
入 用 领域 ,目前 已 有 的 研究 已 深入 到 图 书馆 学 ,情报 
导 阅 案 管 理 .计算 机 科学 教育 学 、 医 学 等 多 个 学 科 。 
温 砍 硅 "" 提 出 知识 元 与 向 导 信息 的 导航 变化 理论 和 
活 , 该 理论 明确 了 知识 元 在 知识 结构 中 的 属性 特征 ， 
知 肖 元 导航 链接 功能 以 及 知识 元 与 向 导 信息 的 组 合 增 
值 变换 规律 ,为 实现 以 知识 元 为 单位 的 知识 组 织 .检索 
与 贷 成 商定 了 理论 基础 。 姜 永 常 等 52 以 知识 元 为 基 
元 与 知识 链接 共同 构建 知识 网 络 和 语义 网 ,并 阐述 了 
知识 元 在 知识 组 织 中 的 知识 发 现 .创新 . 挖 握 与 评价 的 
服务 功能 。 王 宇 与 李 秀 秀 "" 以 知识 元 作为 文献 知识 
组 织 的 最 小 单位 ,通过 知识 元 表示 ,抽取 分 类 链接 以 
及 建立 知识 元 库 实 现 期 刊 文献 的 知识 组 织 与 检索 。 毕 
崇 武 等 分 析 了 数字 图 书馆 用 户 多 粒度 知识 服务 的 
需求 ,构建 了 基于 知识 元 的 数字 图 书馆 组 织 服务 模式 ， 
研究 表明 ,该 方法 能 有 效 的 为 用 户 提供 分 层 的 ,不同 粒 
度 的 知识 资源 ,满足 不 同 用 户 知识 需求 。 此 外 ,在 隐 性 
知识 发 现 “风险 预测 与 评估 "等 方面 知识 元 的 组 织 
方式 也 发 挥 着 重要 的 作用 。 

综 上 所 述 ,目前 政府 网 站 信息 资源 组 织 的 研究 取 
得 一 定 进展 ,但 在 知识 检索 ,知识 组 织 及 利用 方面 仍 是 
以 文献 为 控制 单位 的 粗 粒 度 信息 服务 模式 。 本 文 借鉴 
其 他 领域 知识 组 织 的 成 功 经 验 ,结合 政府 网 站 知识 结 


UD 


构 的 特征 ,构建 政府 网 站 信息 资源 知识 元 模型 ,并 从 认 
知心 理学 的 视角 出 发 ,利用 可 视 化 技术 以 形象 的 符号 
体系 反映 政务 信息 资源 ,从 而 加 强 用 户 对 文本 语义 的 
理解 ” ,降低 用 户 认 知 负荷 ,提高 用 户 知识 获取 效率 。 


3 ”政府 网 站 信息 资源 知识 元 模型 构建 


政府 网 站 信息 资源 以 数据 形式 描述 和 存储 ,而 计 
算 机 无 法 直接 识别 自然 语言 中 的 知识 ,需要 通过 构建 


领域 知识 模型 对 知识 进行 符号 化 表征 。 采 用 知识 元 表 
示 政 府 网 站 信息 资源 领域 知识 ,并 以 知识 元 之 间 的 相 
互 关系 描述 领域 知识 结构 ,将 有 助 于 知识 组 织 从 文献 
层面 深入 到 知识 元 层面 ,实现 知识 的 高 效 组 织 与 管理 。 
3.1 政府 网 站 信息 资源 领域 知识 元 表示 

政府 网 站 信息 资源 具有 共享 性 .可 复制 性 .再 生性 
以 及 与 载体 不 可 分 性 等 “特点 ,知识 元 是 构成 领域 知 
识 的 最 小 单元 ,统一 的 知识 元 表示 规范 能 有 效 地 整合 
资源 ,促进 知识 的 有 效 获取 存储 与 利用 。 随 着 知识 管 
理 与 知识 服务 领域 研究 的 不 断 深 入 ,学 者 们 依据 不 同 
领域 的 知识 属性 ,提出 了 二 元 组 三 元 组 五 元 组 及 七 
元 组 的 知识 元 模型 ,如 表 1 所 示 : 

表 1 知识 元 表示 方法 


E 者 知识 元 模型 知识 元 属性 
周 宁 等 [29] 二 元 组 名 、 值 
温 有 奎 等 [201 三 元 组 对 象 名 、 属 性 集 ,状态 集 
高 国 伟 等 (2 三 元 组 概念 .关系 .问题 
毕 经 元 等 [2] “五 元 组 链接 ,来源 、 名 称 、 作 用、 内 容 
余 洋 [23] 七 元 组 知识 元 标志 号 .知识 名 称 .关键 字 集 ,简要 


说 明 、 知 识 类 别 、 知 识 级 别 、 知 识 地 址 


本 文 综合 上 述 知识 元 模型 ,结合 我 国 《政府 信息 公 
开 目 录 系 统 实施 指引 (试行 )》” 发 布 的 核心 元 数据 标 
准 提 出 六 元 组 知识 元 表示 , 即 : 

KE = <1,T,K,D,C,0 > 

其 中 ,KE 为 知识 元 ,1\T.K、D、C、0 分 别 为 索引 
号 名称 .关键 词 ,内容 描述 .类别 .地 址 ,具体 描述 如 下 
所 示 : 

索引 号 (identifier ,IT) :公开 信息 的 标识 符 , 主要 用 
于 跨 地 区 、 跨 部 门 政 府 信息 公开 和 共享 的 计算 应 用 系 
统 中 ,是 每 条 信息 唯一 的 标识 。 

名 称 (title,T) :政府 公开 信息 ,是 对 发 布 内 容 的 高 
度 概 括 。 

关键 词 (keywords,K) : 指 反映 政府 公开 信息 内 容 
特点 的 词语 ,包括 主题 关键 词 和 位 置 关键 词 。 

内 容 描述 (description ,D) :政府 公开 信息 内 容 的 概 
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述 ,包括 政策 法 规 、 政 府 公告 .工作 动态 等 。 该 属性 是 
用 户 获取 精准 知识 内 容 , 提 高 知识 检索 与 利用 效率 的 
前 提 。 

类 别 (category ,C) : 指 政府 公开 信息 所 属 类 别 的 标 
示 , 包 括 类 目 名 称 和 分 类 代码 。 政 府 信息 资源 分 类 方 
式 包括 :主题 分 类 .机 构 分 类 ,体裁 分 类 以 及 服务 对 象 
分 类 。 

地 址 (online,0): 指 政府 公开 信息 网 上 统一 资源 
标识 符 , 用 来 标识 信息 来 源 所 在 载体 ,用 户 通过 访问 网 
址 可 获取 完整 的 信息 内 容 。 

上 述 知识 元 全 面 涵盖 了 单 篇 政府 文献 的 主要 信 
息 ,依照 上 述 表示 方法 在 文本 信息 中 抽取 全 部 相关 属 
性 内 容 ,有 利于 深层 次 的 知识 挖掘 与 知识 元 本 体 结构 
的 构建 。 

3 政府 网 站 信息 资源 知识 元 本 体 结构 

DY，Yao 等 5 指出 语义 知识 检索 系统 不 是 通过 标 
引 芒 组织 数据 和 文献 ,而 是 通过 知识 元 的 连接 来 组 织 ， 
政 珊 网 站 信息 资源 知识 元 本 体 的 建立 能 够 揭示 知识 元 
及 车 相 互 之 间 复杂 的 语义 关系 ,明确 知识 元 属性 与 结 
梅 :是 实现 语义 知识 检索 的 基础 。 知 识 元 本 体 库 由 关 
系 旦 征 库 、 元 数据 信息 库 .知识 元 语义 图 构成 。 其 中 关 
系 竺 征 库 是 存储 知识 元 本 体 的 各 种 关系 ,包括 并 列 关 
和 落 闫 联 关系 ,包含 关系 等 ,是 知识 元 交流 与 推理 的 基 
础 S 数据 信息 库 是 存储 知识 元 本 体 数据 类 型 ;知识 元 
请 芝 图 由 内 部 的 知识 元 实体 及 外 部 的 知识 元 间 关 系 构 
成 ea 将 知识 元 的 结构 描述 为 四 元 组 六 


= k= <c, p,m,r> 


OO 其中,k 表示 知识 元 本 体 元 素 ,c 表示 某 个 领域 概 
念 ,p,m 分 别 是 概念 e 上 的 一 组 属性 和 方法 ,r 是 建立 
在 e 上 与 其 他 概念 的 一 组 关系 。 根 据 上 述 对 知识 元 本 
体 结构 的 描述 , 若 知识 元 本 体 由 mn 个 本 体 元 素 组 成 , 则 
概念 集 C = fc,e ,cj ，…,c 人 属性 集 P = {pi,p;,p;， 
…,p,| 方法 集 M = | mm ,ms,…,m,| 以 及 建立 在 C 
上 的 关系 集 R = 1n ,pm 将 共同 组 成 一 个 有 向 
图 G,G = 1X;E| ,X 为 图 的 点 集 ,E 为 边 集 ,X 的 值 域 
为 概念 集 C,E 的 值 域 为 关系 集 R。 见 图 1。 

鉴于 政府 网 站 信息 资源 动态 更 新 与 增长 ,知识 元 
本 体 结构 与 知识 元 关系 也 随 之 改变 , 受 本 体 自动 化 更 
新 技术 的 局 限 , 为 了 保证 领域 知识 元 本 体 演化 的 效率 
与 准确 性 ,进化 过 程 中 应 在 领域 专家 的 干预 下 操作 完 
成 。 知 识 元 本 体 的 引入 ,明确 了 知识 元 所 在 领域 本 体 
相关 概念 的 位 置 及 知识 元 间 的 组 合 链接 ,是 政府 网 站 
信息 资源 实现 知识 元 可 视 化 的 关键 。 
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图 1 知识 元 本 体 语义 图 '" 


4 政府 网 站 信息 资源 知识 元 抽取 与 可 


视 化 表征 
4.1 政府 网 站 信息 资源 知识 元 抽取 

知识 元 抽取 是 政府 网 站 信息 资源 知识 存储 、 管 理 
及 可 视 化 的 前 提 , 以 政府 信息 资源 关键 词 为 基础 ,通过 
关键 词 识 别 ,判断 其 是 否 包含 知识 元 。 由 于 政府 网 站 


言 息 资 源 涉及 单个 领域 知识 语料库 较 单 一 ,抽取 结果 
会 出 现 关键 词 元 余 度 高 .主题 难以 聚 类 等 问题 ,本 文采 
关键 词 与 主题 模型 相 结合 的 方法 , 比 对 分 析 抽 取 后 
的 关键 词 ,获取 更 全 面 的 领域 知识 元 。 

4.1.1 TextRank 关键 词 抽 取 ”关键 词 抽取 的 主要 目 
的 在 于 从 单 篇 文档 中 自动 提取 能 够 表达 整 篇 文档 主题 
内 容 的 词语 ,最 典型 的 关键 词 抽 取 算法 是 基于 词汇 共 
现 图 的 TextRank 算法 ' ,TextRank 算法 根据 单 篇 文献 
词汇 共 现 图 中 一 个 词汇 节点 越 重要 ,与 其 连接 的 词汇 
节点 就 越 重要 这 一 假设 ,评估 词汇 共 现 图 中 每 一 个 词 
汇 节 点 的 权重 ,权重 越 大 的 词汇 则 越 可 能 表达 这 篇 文 
章 的 主旨 ,因此 本 文 关键 词 的 确立 取决 于 权重 的 大 小 
排序 。 关 键 词 抽取 的 基本 流程 如 图 2 所 示 : 


计算 每 个 词语 权重 


图 2 TextRank 算法 实现 流程 


(1) 将 文本 工分 割 成 若干 句子 , 即 :T(S ,S ，…， 
S,)。 

(2 ) 对 逐个 句子 Si eT 进行 分 词 、 停 用 词 过 滤 处 
理 , 从 而 获得 句子 集 与 单词 集 。 

(3) 构 建 修 选 关 键 词 共 现 图 G =(V,E) ,其 中 V 为 
节点 集 ,由 候选 关键 词组 成 ;E 为 边 集 ,由 具有 共 现 关 
系 的 两 点 构成 的 边 组 成 。 设 窗口 大 小 为 ,假设 一 个 
句子 由 词 w ,wa ,wa… ,ws 组 成 , [wi ,ws,…， 
Wa We ] Wkly Wa kr2，""* Wa] 等 各 为 一 个 
窗口 ,在 每 个 窗口 中 的 任意 两 个 词汇 节点 之 间 存 在 边 ， 


Sa 
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则 构成 一 个 无 向 无 权 图 。 

(4) 对 每 一 单词 ,计算 权重 S( Vi) ,使 用 公式 (1 ) 
迭代 计算 文本 中 任 一 词语 Vi 的 权 值 , 式 中 d 为 调节 系 
数 ,一 般 取 0. 85,SCVi) 初 始 值 设 为 1, 当 图 中 任意 一 
个 节点 权重 的 迭代 误差 值 小 于 0.0001 时 收敛 ,停止 迁 
代 。 


S00) = 0 0) rax, Bnonti 


S(v;) 
式 (1) 
(5) 根 据 权重 SCV,) 对 节点 排序 ,获取 得 分 最 高 的 

T 个 单词 ,作为 该 文本 的 关键 词 。 

4.1.2 HDP 模型 主题 划分 Y. W Teh 在 DP 

(Dirichlet Process, 狄 利克 雷 过 程 模型 ) 基础 上 ,于 2005 

年 提出 HDP( Hierarchical Dirichlet Process ) 层次 狄 利克 

直 革 程 模型 ”: 。 相 比 目 前 主流 的 LDA 主题 模型 ,HDP 

E 强 稀 下 性 数据 、 自 动 生成 主题 以 及 主题 动 

恩 神化 等 优势 。 政 府 网 站 信息 资源 的 单 篇 文档 中 通 党 

< 聊 了 多 个 主题 内 容 ,倘若 仅 采用 基于 句子 重要 度 或 

关键 词 的 抽取 方法 ,可 能 导致 获取 信息 不 完整 ,无 法 全 

面 局 喘 整 篇 文档 的 多 个 主题 ,为 了 抽取 全 领域 知识 元 ， 

喜 尼 行 主题 划分 。 在 处 理 大 数据 文本 时 ,HDP 模型 能 

角 搞 气 文 本 深层 语义 是 自动 确定 主题 数目 ,抽取 流程 


始 鹿 3 所 示 : 


停 


时 知识 元 库 进行 动态 推理 ,经 人 工 识别 修正 不 完善 或 


分 司 不 王 | 
EE 一 一 
停 用 词 过 滤 ! 


图 3 HDP 算法 流程 


(1) 对 目标 文献 集 进 行 分 词 . 停 用 词 过 滤 构建 词 
频 特征 等 预 处 理工 作 。 

(2) 对 文献 集合 进行 HDP 主题 分 析 , 确 定 文献 中 
N 个 主题 的 权重 ,依据 抽取 的 具体 主题 中 候选 主题 词 
权重 ,选择 具体 的 主题 词 。 其 中 主题 了 可 以 表示 为 : 

T= (Wos, Vo Wi ,Vi Wy ,V2 3" Wa , Va) 

其 中 ,T(topic ) 表示 一 个 主题 ,主题 了 共有 n 个 主 
题词 ,w,( word, ) 表示 某 一 主题 词 ,v, (value, ) 表示 主题 
词 在 主题 中 的 权重 。 

(3) 依 据 贡献 度 进行 主题 排序 。 通 过 TextRank 和 
HDP 算法 抽取 关键 词 ,经 过 人 工 对 比分 析 ,建立 关键 词 
集 , 根 据 政府 网 站 信息 资源 知识 元 表示 方法 由 领域 专 
家 确定 知识 元 相关 属性 ,并 将 完整 的 知识 元 存 人 知识 


元 本 体 库 。 
4.2 ”政府 网 站 信息 资源 领域 知识 元 可 视 化 表征 模型 
认 知 心理 学 认为 信息 的 组 织 与 外 在 表征 直接 影响 
人 的 认 知 ,理解 与 内 化 ” , 可视化 表征 能 够 将 承载 知 
识 的 信息 资源 进行 结构 化 组 织 , 便 于 人 们 对 知识 形成 
整体 且 直 观 的 认识 ,促进 知识 的 获取 、 建 构 \ 应 用 和 传 
播 。 知 识 可 视 化 是 利用 视觉 表征 的 手段 构建 与 传达 
知识 及 知识 间 复 杂 的 语义 关系 ,可 视 化 表征 将 有 助 
于 提升 政府 网 站 知识 服务 能 力 与 知识 应 用 价值 。 依 
据 知 识 元 模型 理论 与 可 视 化 思想 ,构建 政府 网 站 信 
息 资 源 领 域 知识 元 可 视 化 表征 模型 ,该 模型 由 领域 
知识 元 本 体 库 生 成 模块 与 可 视 化 知识 服务 模块 构 
成 。 见 图 4。 
4.2.1 知识 元 本 体 库 生成 模块 ”政府 网 站 信息 资源 
知识 元 本 体 的 构建 是 实现 语义 检索 的 基础 ,知识 元 本 
体 用 以 描述 资源 本 身 以 及 资源 间 丰 富 的 语义 关系 ,使 
内 容 具 有 计算 机 理解 的 语义 。 利 用 上 文 提 到 的 关键 词 
与 主题 聚 类 方法 抽取 政府 网 站 信息 资源 的 元 数据 ,人 
工 对 比 筛 选 后 组 建 关 键 词 集 , 由 领域 专家 选择 本 领域 
本 体 模板 进行 知识 元 标注 ,由 于 自动 化 标注 技术 的 局 
限 ,目前 主要 采用 半自动 化 的 标注 方法 ,依据 标注 结 呈 
获取 知识 元 并 建立 临时 知识 元 库 , 通 过 推理 算法 对 临 


pa 


不 合理 的 知识 元 ,将 其 存 人 知识 元 库 。 本 体 
编辑 器 界面 为 用 户 提供 语义 标注 上 下 文 信 
息 ,允许 和 鼓励 用 户 参 与 信息 交流 与 共享 ， 
以 获取 和 生成 新 的 知识 元 ,不 断 更 新 知识 元 
库 "。 

4.2.2 可 视 化 知识 服务 模块 ”政府 网 站 知 
识 可 视 化 服务 是 建立 在 信息 深度 理解 .分析 
与 挖掘 的 基础 上 ,为 了 提高 用 户 知识 检索 的 精准 度 , 本 
文 依据 知识 元 模型 理论 、 知 识 图 谱 思 想 和 可 视 化 技术 
对 政府 网 站 信息 资源 领域 知识 元 进行 可 视 化 。 在 进行 
可 视 化 之 前 需 展 开 包 括 算法 选择 、 阀 值 设 置 \ 时 区 分 
割 、 网 络 布局 等 准备 工作 ,其 中 ,算法 选择 可 采用 聚 类 
算法 (如 上 -means、 谱 聚 类 算法 等 ) 关联 强度 (如 
BTM 、HD ,Jaccard 等 ) 特征 词 权 重 ( 如 TF. IDF MI 
等 ) ;时 区 分 割 可 依据 分 析 年 限 节点 进行 时 间 切 分 ; 
网 络 布局 可 采用 visio、2D/3DFruchterman -Reingold 、 
MDS Kamada-Kawai 等 算法 计算 语义 相似 的 知识 元 在 
共 现 网 络 中 的 距离 ,帮助 用 户 理解 知识 元 库 的 知识 
内 容 。 选 用 上 述 算法 及 功能 进行 自动 标签 ,生成 各 
类 可 视 化 知识 图 谱 。 


ET 
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加 用 户 在 检索 时 可 采用 主题 词 或 关键 词 的 形式 发 出 
八重 命令 ,政府 网 站 信息 系统 将 请 求 分 解 成 一 个 查询 
措 交 交 给 知识 元 库 ,根据 搜索 任务 匹配 相应 的 知识 元 ， 
借 二 上 述 相关 算法 及 可 视 化 工具 可 生成 体现 关键 词 共 
斑 准 息 来 源 机 构 .政务 信息 主题 与 领域 类 别 的 可 视 化 
知 训 图谱” ,用 户 根据 查询 结果 向 网 站 反馈 服务 满意 
度 3> 


.所 共享 单车 作为 移动 互联 网 环境 下 共享 经 济 创新 模 
式 秽 典 型 代表 ,在 解决 交通 拥堵 . 短 距离 公共 交通 接 驶 
等 万 面 发 挥 着 积极 的 作用 , 据 《2017 年 共享 单车 白 皮 
书 ) 报 告 显示 ,目前 共享 单车 已 遍布 超过 20 个 省 .自治 
区 的 50 多 个 城市 ;极光 大 数据 也 显示 :截止 到 2017 年 
12 月 ,共享 单车 两 大 巨头 ofo 小 黄 车 与 摩 拜 单车 的 用 
户 数量 已 分 别 达 到 2 693.0 万 人 和 2 378.2 万 人 50 。 
然而 ,共享 单车 在 推动 城市 环境 、 交 通 、 经 济 建设 发 展 
的 同时 ,安全 隐患. 事故 责任 认定 .资金 管理 .单车 售 
放 .市 场 运 营 秩 序 .单车 技术 性 等 问题 也 层出不穷, 仅 
上 海 市 2017 年 各 类 单车 相关 投诉 案件 就 高 达 7 978 
件 P0 。 规 范 共享 单车 有 序 经 营 与 发 展 已 成 为 政府 与 
公众 广泛 关注 的 热点 问题 ,为 此 本 文采 集 各 级 政府 网 
站 以 “共享 单车 “互联 网 共享 自行 车 "相关 主题 的 内 
容 作为 实验 数据 。 
5.1 ”实验 数据 选取 与 预 处 理 

为 了 确保 数据 的 全 面 性 与 准确 性 ,数据 全 部 选取 
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知识 元 可 视 化 实例 


领域 类 别 可 
来 源 机 构 可 视 ' 
主题 可 视 化 


可 视 化 表征 


4 ”政府 网 站 信息 资源 领域 知识 元 可 视 化 表征 模型 


域名 为 gov. cen” 的 网 址 ,分 别 使 用 “共享 单车 site: gov. 
cn 和 ”互联 网 共享 自行 车 site:gov. cn” 作 为 关键 词 , 通 
过 百度 进行 相关 文献 的 检索 ,时 间 截 至 2018 年 3 月 20 
日 , 共 得 到 1 131 个 词 条 ,利用 python 软件 擒 取 这 些 词 
条 对 应 的 网 址 ,并 对 这 些 网 址 进行 过 滤 ,其 中 网 址 中 不 
包含 htm asp 和 php 的 网 页 一 般 为 动态 网 页 ,不 包含 
有 用 的 正文 ,因此 过 滤 掉 网 址 不 包含 这 3 个 关键 词 的 
网 页 。 获 取 的 网 页 结构 包括 导航 栏 正文 部 分 ,评论 部 
分 等 多 个 组 成 部 分 ,在 实际 分 析 中 采用 哈尔滨 工业 大 
学 开发 的 基于 行 块 分 布 函 数 的 通用 网 页 正文 抽取 算 
法 ,只 抽取 网 页 的 正文 部 分 。 除 此 之 外 ,由 于 防火 
墙 和 网 页 失效 ,部 分 网 站 无 法 候 取 数据 ,在 分 析 过 程 中 
不 再 关注 这 部 分 网 页 ,过 滤 后 共 获 取 797 个 网 页 。 在 
文本 预 处 理 阶段 ,采用 jieba 分 词 工具 处 理 抽取 的 正 
文 ,为 了 提高 文本 挖掘 的 准确 性 ,利用 哈尔滨 工业 大 学 
言 息 检索 实验 室 开发 的 通用 词 表 过 滤 停 用 词 。 

5.2 实验 过 程 

5.2.1 关键 词 与 主题 抽取 采用 TextRank 算法 抽取 
共享 单车 797 篇 相关 文献 的 关键 词 ,计算 每 个 词 在 共 
现 图 中 的 重要 程度 , 按 排序 结果 选取 前 30 个 作为 领域 
关键 词 ,由 于 计算 机 抽取 结果 中 包含 部 分 兄 余 和 无 用 
词语 ,在 自动 抽取 结果 的 基础 上 进行 人 工 修正 (去 除 区 
域 .量词 等 词汇 ) ,关键 词 统计 是 基于 出 现 这 个 关键 词 
的 文献 数 , 即 如 果 一 个 文献 中 存在 这 个 关键 词 ,无 论 出 
现 多 少 次 ,只 对 该 关键 词 统计 一 次 ,根据 统计 结果 绘制 
5 与 图 6: 
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污 为 了 获得 更 全 面 且 准 确 的 领域 知识 , 除 采用 Tex- 
tRatk 算法 抽取 关键 词 外 ,利用 HDP 主题 模型 算法 再 
次 晤 共享 单车 文本 语料库 进行 主题 建 模 ,由 于 HDP 不 
需要 指定 主题 数 且 完全 自动 从 语料库 中 学 习 主 题 ,很 

度 上 可 以 提高 大 数据 政府 文献 主题 抽取 的 精准 
度 。 使 用 开源 主题 分 析 工具 包 gensim 分 析 共享 单车 
语 料 ,抽取 的 主题 以 主题 词 (关键 词 ) 的 形式 表示 ,从 
中 提取 强度 与 贡献 度 最 高 的 20 个 主题 及 主题 词 ,经 人 
工 识别 确定 3 个 主题 下 的 30 个 主题 词 ,结果 见 表 2。 

对 比分 析 共 享 单车 关键 词 与 主题 抽取 结果 ,关键 
词 抽取 结果 基本 涵盖 了 代表 该 领域 主题 下 的 主题 词 ， 
最 终 确定 共享 单车 公共 服务 、 运 维 监管 .治理 措施 3 个 
主题 ,以 及 该 领域 的 30 个 关键 词 :共享 .管理 .企业 . 间 
题 ,停放 .出 行 .规范 、 互 联网 ,投放 .服务 .运营 .用 户 、 
政府 .行为 .交通 .安全 .信息 .责任 .押金 .信用 .标准 、 
措施 资金 .经 济 .政策 智能、 盗窃 .损坏 收费 实名。 
5.2.2 ”知识 元 "内容 措 述 "属性 抽取 ”通过 对 政府 网 
站 信息 资源 预 处 理 .关键 词 抽取 与 主题 识别 ,获取 领域 
知识 相关 主题 与 关键 词 ,由 于 计算 机 在 领域 知识 分 类 
与 识别 中 存在 一 定 偏差 ,在 抽取 中 需 进行 人 工 干预 ,并 


表 2 共享 单车 主题 模型 抽取 结果 


公共 服务 运 维 监管 治理 措施 
交通 停放 政府 
低 碳 规范 标准 
经 济 服务 责任 
接 驳 投放 企业 
绿色 二 维 码 信和 
短 距 离 调度 安全 
互联 网 维护 自行 车 道 
市 民 损坏 承载 力 
最 后 一 公里 盗窃 联合 监管 


将 抽取 结果 与 知识 元 本 体 库 匹配 ,保留 并 存储 可 用 知 
识 元 。 依 据 前 文 建立 的 知识 元 六 元 组 模型 可 知 ,知识 
元 属性 D( 内 容 描述 ) 的 抽取 是 获取 其 他 知识 元 属性 的 
基础 ,因此 本 文 在 实例 研究 部 分 重点 探讨 D 的 抽取 工 
作 以 及 介绍 其 他 知识 元 属性 抽取 思路 。 以 共享 单车 文 
献 中 “资金 ”为 例 , 构 建 知识 元 属性 : 

I( 索 引号 ) :信息 标识 码 。 

T( 名 称 ) :该 知识 元 的 名 称 , 即 资金 。 

K( 关 键 词 ) ;根据 领域 语料库 抽取 关键 词 ,经 人 工 
筛选 与 识别 ,选取 高 频 词 作为 该 知识 元 的 关键 词 集 。 
资金 知识 元 的 关键 词 集 为 :押金 .专款 专用 、 联 合 托管 、 
信用 体系 。 

D( 内 容 描述 ) :鼓励 免 押 金 、 建 立信 用 体系 ; 即 租 
即 压 . 即 退 即 还 ;建立 专用 账户 ,专款 专用 由 金融 机 构 
联合 监管 。 

C( 类 别 ) :知识 类 别 属性 的 抽取 工作 相对 复杂 ,要 
结合 领域 本 体 知识 的 划分 ,本 文中 的 共享 单车 属于 交 
通 范畴 ,而 其 中 的 资金 是 其 子 范畴 ,同时 资金 管理 问题 
也 可 被 视 为 金融 相关 领域 范畴 。 这 也 是 本 文 后 续 人 研究 
的 重点 工作 。 

0( 地 址 ) :知识 地 址 属性 是 知识 元 所 在 来 源 的 超 
级 链接 ,由 于 政府 文献 主题 分 布 的 特点 , 单 篇 文献 涉及 
多 个 主题 内 容 , 实 现 该 属性 的 抽取 工作 要 在 知识 元 内 
容 属性 基础 上 去 宛 余 并 聚 类 。 

5.3 ”共享 单车 领域 知识 元 可 视 化 

依据 共享 单车 知识 元 内 容 属 性 的 抽取 原理 ,结合 
政府 网 站 信息 资源 领域 知识 元 可 视 化 表征 模型 ,构建 
共享 单车 领域 知识 元 可 视 化 导航 图 , 见 图 7。 

共享 单车 知识 元 可 视 化 导航 图 以 不 同 颜色 和 大 小 
的 节点 及 表达 节点 语义 关系 的 连 线 来 清晰 地 展示 该 领 
域 的 知识 内 容 和 知识 结构 。 采 用 知识 元 为 节点 和 知识 
元 语义 关系 为 连接 线 的 层次 结构 化 表达 方式 便于 用 户 
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第 三 方 涡 利用 赤 
业 止 南 12 岁 以 证 九 登 夫 误 服 赤 方 民 短 上 器 涛 出行 
制定 闹 乔 他 床 守则 
用 闫 总 客 注 丹 
父 订 用 训 瞩 务 协议 从 
人 
曙 榴 放 旨 上 准 与 方式 二 维 码 厂 解 驳 局 扒 银 务 
获奖 许 外 食客 限 除 单车 规 妹 徇 和 区 与 占用 
公共 信 匠 变 庆 
返 维 服务 与 监管 二 
合理 配备 编 下 服务 团队 共 嘿 
车 全 调度 煤 训 天 准 护 
交通 事故 训 定 与 入 绒 出 主 管 凶 门 在 天山 构 联 从 托管 
报 度 夺 网 履 回 


< 牧 # 用 。 次 俩 称 理 


哉 展 息 郑 全 


交 间 pi 入 合理 设 辕 售 就 点 


治 弄 匀 范 完善 车 轿 抽 放 轴 外 


旨 解 交 曾 压 碟 光头 .fe 


带 活 沁 休 经 济 
绿色 企 下 出行 


管 丰 占用 冰 费 动车 性 行为 
自行 罕 谤 建设 


移 己 丘 行 策 交 通 网 络 单车 运 荫 全 烛 信 各 兴 广 


公众 出 行 夫 求 


成 让 生 网 厌 拒 鹏 力 。。 禄 鸯 镇 


车 身 外 观 设计 
荣 本 华 产 众 业 标准 议定 
~ 纶 赂 区 滨 车 俩 任 般 诡 从 
网 络 和 信息 安 会 入 理 g 和 让 各 个 间 证 质 认 证 用 户 寺 泛 高 作 
用 户 众 要 枯 各 与 这 用 开国 大 出 般 庆 电 
条 集 信息 与 灯 超 辣 大 天 壬 内存 刍 


建立 售 / 负 评价 余 系 
民生 区 情 或 焰 安 盆 咎 
攻 基 及 在 大 后 帮 
企业 和 和 有 必 骨 的 从 用 记 呆 
RN /i 组 成 企业 从 大 信息 江 六 联盟 
用 户 信用 烧 帮 座 
地 广电 评 汶 攻 疹 业 的 大 


准确 地 做 出 检索 与 浏览 的 决策 ,只 需 点 击 搜寻 任 
示 知识 节 贞 便 可 一 ee 


me 
需求 ,领域 知识 元 结构 化 导航 符合 用 户 换 作 的 最 


6 结语 


政府 网 站 信息 资源 的 多 源 异 构 和 动态 生长 特性 与 
政府 网 站 网 页 文档 粗 粒度 信息 服务 模式 均 不 利于 政务 
用 弗 高 效 精确 地 获取 和 解读 信息 ,因此 本 文 从 知识 最 
小 单位 知识 元 出 发 研究 政府 网 站 信息 资源 细 粒 度 知 识 
服务 范式 。 在 知识 元 模型 理论 和 知识 可 视 化 思想 结合 
下 构建 了 政府 网 站 信息 资源 知识 元 可 视 化 表征 模型 ， 
通过 共享 单车 实例 验证 了 模型 的 可 行 性 ,表明 该 模型 
有 助 于 提高 政府 网 站 信息 资源 的 知识 流转 效率 、 知 识 
发 现 概率 以 及 知识 服务 精确 率 , 为 政府 网 站 知识 组 织 
与 知识 服务 提供 新 的 研究 路 径 。 后 续 将 根据 政府 网 站 
信息 资源 知识 元 可 视 化 表征 模型 设计 开发 知识 元 可 视 
化 原型 系统 。 
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Study on Knowledge Element Model and Visual Representation of 
Government Website Information Resources 
Wang Ping Wang Meiyue’ Wang Yicheng Huang Xinping” 
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Abstract: [Purpose/significance | The theory of knowledge element model is used to study the optimization path of 
the knowledge service effect of government Website, and the visual representation technology is helpful to reduce the oper- 
ating load and the cognitive load of the information processing of the government users under the big data environment. 
[ Method/process | According to the related knowledge element model, the six -tuple knowledge element representation 
method and the knowledge element ontology four tuple structures are deduced, which conforms to the characteristics of the 
information resources of the government Website. The TextRank and HDP algorithms are used to extract the key words and 
the subject words of the government Website information resources, and the domain experts determine the knowledge ac- 
cording to the extraction results. A visual representation model of government Website information resources knowledge el- 
ement is constructed, which includes knowledge element ontology database generation and visual knowledge service. [ Re- 
sult/conclusion | The shared bicycle as an example issued by the government Website tests the effectiveness and feasibili- 
ty of the visual representation model of knowledge element, and it provides a new research idea for the transition from gov- 
ernment Website document’ s coarse -grained service to the knowledge element as a unit of fine -grained service, also with 
the help of visual knowledge services, the structured navigation of government information and the effect of user interpreta- 
tion of domain text semantics are enhanced. 


Keywords.: government Website information resource knowledge element ontology visual representation 
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